“短文本集”专利关键词查询_检索下载_查询列表_检索列表_行业专利分布_钻瓜专利网

钻瓜专利网为您找到相关结果92674个，建议您升级VIP下载更多相关专利

[发明专利]短文本聚类设备及方法-CN201110160561.4有效
发明人：赵凯;胡长建;王大亮;许洪志 -专利权人：日电（中国）有限公司
申请日： 2011-06-15 - 公布日： 2012-12-19 - 主分类号： G06F17/30 文献下载
摘要：本发明提供了一种短文本聚类设备，包括：主题分析单元，对辅助文本集合与短文本集合中的每一个文本执行主题分析，以获得短文本集合中的每个短文本对应于辅助文本集合的主题和短文本集合的主题的可能性；向量生成单元，将每个短文本对应于辅助文本集合的主题和短文本集合的主题的可能性进行归一化，以生成向量；以及聚类单元，基于生成的向量对短文本集合中的短文本进行聚类。本发明还提供了一种短文本聚类方法。本发明实现了辅助文本主题和短文本主题的各自发现，从而能够更准确地对短文本进行聚类。
文本设备方法

[发明专利]短文本处理方法及装置-CN201510250477.X有效
发明人：阮星华;张文 -专利权人：百度在线网络技术（北京）有限公司
申请日： 2015-05-15 - 公布日： 2018-04-20 - 主分类号： G06F17/30 文献下载
摘要：本申请公开了短文本处理方法及装置。所述方法包括获取第一短文本集合，并对第一短文本集合进行预处理；基于预处理后的第一短文本集合，执行如下处理步骤使用预处理后的第一短文本集合训练主题模型LDA，得到第一短文本集合中各短文本的主题概率分布；对主题概率分布进行聚类，确定第一短文本集合中各短文本的主题类别。本申请通过训练主题模型并进一步对主题概率分布进行聚类，可以得到短文本的主题类别，实现了对短文本准确分类的目的。
文本处理方法装置

[发明专利]一种考虑语义背景的短文本分类器构造方法-CN201810547970.1有效
发明人：王俊芳 -专利权人：天津探数科技有限公司
申请日： 2018-08-20 - 公布日： 2021-09-03 - 主分类号： G06F16/35 文献下载
摘要：本发明公开一种考虑语义背景的短文本分类器构造方法。包括：收集短文本样本集，记录每个样本集所来自的社区主题，人工对样本集中的每个短文本样本给定标签，短文本样本集与对应的标签集构成了训练集。利用短文本集对一个两层的长短时记忆(Long‑short term memory，LSTM)编解码重构网络进行训练，训练好的网络可以对输入的任一一个短文本进行编码，得到输入短文本的特征向量。求取来自相同或者类似社区主题的短文本的特征向量均值，每个特征向量均值看作是对应的社区主题的短文本的语义背景向量。每个短文本减去所对应的语义背景向量，得到新的短文本样本集。利用新的短文本集与其标签来训练一个短文本分类器，本发明可以应用在短文本分类的相关业务中。
一种考虑语义背景文本分类构造方法

[发明专利]短文本完整性识别方法、装置、存储介质及计算机设备-CN201910740545.9在审
发明人：刘逸哲 -专利权人：大箴(杭州)科技有限公司
申请日： 2019-08-12 - 公布日： 2019-12-24 - 主分类号： G06F17/27 文献下载
摘要：本发明公开了一种短文本完整性识别方法、装置、存储介质及计算机设备，涉及信息技术领域，主要目的在于能够提升短文本完整性的识别精确度，以及识别效率，所述方法包括：获取已有的短文本集，并收集海量文本；根据所述短文本集中被截断短文本的概率分布和所述海量文本，对所述短文本集进行增量处理；利用预设卷积神经网络算法，对增量后的短文本集中的短文本、及其对应的完整性类别标签进行训练，得到短文本完整性识别模型；将待识别短文本输入到所述短文本完整性识别模型进行识别，以确定所述待识别短文本是否完整本发明适用于短文本完整性的识别。
短文本短文本集海量文本卷积神经网络信息技术领域计算机设备存储介质概率分布类别标签增量处理截断预设算法

[发明专利]实体标注数据集构建方法、装置及设备-CN201810706128.8有效
发明人：王述;冯知凡;汪琦;陆超;张扬;朱勇 -专利权人：北京百度网讯科技有限公司
申请日： 2018-06-28 - 公布日： 2019-09-10 - 主分类号： G06F17/27 文献下载
摘要：本发明实施例提供一种实体标注数据集构建方法、装置及设备，该方法包括：获取实体集合，实体集合中包括多个具有歧义的实体及每个实体对应的实体别名；在用户在预设时段内浏览的网页数据中获取实体集合对应的短文本集合，短文本集合中包括每个实体对应的短文本和每个实体别名对应的短文本；获取短文本集合中每一个短文本中的实体；接收用户输入的每个短文本中的实体对应的实体链接，并根据短文本集合、短文本集合中每个短文本中的实体、及每个短文本中的实体对应的实体链接，生成实体标注数据集。
短文本实体标注数据集集合实体集合装置及设备构建链接接收用户网页数据预设时段完善性歧义浏览保证

[发明专利]项目查重方法、装置、设备及存储介质-CN201910539972.0在审
发明人：崔德冠 -专利权人：平安国际智慧城市科技股份有限公司
申请日： 2019-06-19 - 公布日： 2019-10-25 - 主分类号： G06F17/22 文献下载
摘要：本发明涉及人工智能，公开一种项目查重方法、装置、设备及存储介质，该方法包括：获取项目文本，将项目文本划分为待测短文本集和待测长文本集；查找待测短文本集对应的基准短文本，并获取其与待测短文本集之间的第一相似度；若第一相似度低于预设相似度阈值，则查找待测长文本集对应的基准长文本并获取其与待测长文本集之间的第二相似度；根据第二相似度获取查重结果，由于是先根据短文本集对应的基准短文本对短文本集进行相似度检测，在获取到的相似度不能判定项目的查重情况时，再通过计算长文本集和基准长文本之间的相似度对待查重项目进行查重结果判定，相较于现有的文本查重方式，使得查重结果更加准确、真实，也提高了文本查重的效率。
长文本相似度短文本集重结果存储介质项目文本短文本判定文本相似度获取相似度检测人工智能查找预设

[发明专利]电力工单短文本热点话题识别方法、装置及终端-CN202110171478.0有效
发明人：刘林青;付文杰;申洪涛;杨迪;马红明;马浩;吴迪 -专利权人：国网河北省电力有限公司营销服务中心;国家电网有限公司;国网河北省电力有限公司电力科学研究院
申请日： 2021-02-08 - 公布日： 2022-06-24 - 主分类号： G06F16/34 文献下载
摘要：本发明适用于电力短文本处理技术领域，提供了电力工单短文本热点话题识别方法、装置及终端，其中，电力工单短文本热点话题识别方法，包括：获取电力工单短文本集，并对电力工单短文本集进行预处理得到电力工单短文本集对应的特征词集；基于LF‑BBTM主题模型，根据电力工单短文本集对应的特征词集确定电力工单短文本集的热点话题；其中，LF‑BBTM主题模型为基于BTM主题模型和潜在特征模型构建的主题模型。本发明可以提高电力工单短文本识别准确率，进一步优化电力数据处理过程，提高了数据处理效率。
电力工单短文本热点话题识别方法装置终端

[发明专利]热点话题确定方法、装置及终端设备-CN202011256659.5在审
发明人：吴迪;赵伟超;申超;赵玉凤;王梓宇;马文莉;杨丽君;段晓旋;马超 -专利权人：河北工程大学
申请日： 2020-11-11 - 公布日： 2021-02-05 - 主分类号： G06F16/31 文献下载
摘要：其中所述热点话题确定方法，包括：获取短文本集，并根据所述短文本集确定各个短文本分别对应的特征词集；基于改进的BTM模型，根据所述各个短文本分别对应的特征词集确定所述短文本集对应的主题向量；根据所述各个短文本分别对应的特征词集确定各个短文本分别对应的文本向量；根据所述短文本集对应的主题向量和所述各个短文本分别对应的文本向量，确定所述各个短文本分别对应的主题词；计算所述各个短文本分别对应的主题词的话题热度值，根据所述各个短文本分别对应的主题词的话题热度值确定热点话题
热点话题确定方法装置终端设备

[发明专利]短文本的聚类方法和系统-CN201410112525.4有效
发明人：高振华;杨鹤鸣;刘俊峰;梁冠雄;李炯城;肖恒辉;关晓明;杨若冰 -专利权人：广东省电信规划设计院有限公司
申请日： 2014-03-24 - 公布日： 2017-04-19 - 主分类号： G06F17/30 文献下载
摘要：本发明公开了一种短文本的聚类方法和系统，所述方法包括获取短文本集中各短文本间的相似度；从所述短文本集中查找与待处理短文本间的相似度大于相似度阈值的短文本，生成第一集合；判断所述第一集合中短文本的数量是否大于0，若是，则从所述短文本集中再次查找与待标记短文本间的相似度大于所述相似度阈值的短文本，生成第二集合；判断所述第一集合与所述第二集合中相同短文本的数目是否超过文本数阈值，若超过，则将所述待处理短文本与所述待标记短文本划分为同一类别实施本发明的方法和系统，在提高聚类精度的同时，可降低数据信息的丢失率，可反映数据集中各短文本的真实数据信息。
文本方法系统

[发明专利]基于人工智能的数据处理系统、方法及存储介质-CN202310859366.3在审
发明人：徐坚;邓启明 -专利权人：杭州再启信息科技有限公司
申请日： 2023-07-13 - 公布日： 2023-10-10 - 主分类号： G06F16/14 文献下载
摘要：信息标准化模块用于对数据信息进入读取，并将数据信息进行转化成一种预先设置类型的数据信息文本。信息分割模块进行分割获得短文本，将短文本集合获得短文本集。信息分析模块用于通过各个短文本集的干扰权重并计算获得短文本的选用值，以非交叉方式提取短文本，计算短文本的选用值，并选用值的最大值记入信息文本集，直至完成整个数据信息文本。通过对数据信息文本进行分割获得短文本，然后通过计算选用值，可以筛除了大量的非必要数据信息，减少了数据输出量。
基于人工智能数据处理系统方法存储介质

[发明专利]一种针对混合长度文本集的文本聚类方法-CN201510037543.5有效
发明人：张勇;陈信欢;李超;邢春晓 -专利权人：清华大学
申请日： 2015-01-26 - 公布日： 2018-06-15 - 主分类号： G06F17/30 文献下载
摘要：本发明公开了一种针对混合长度文本集的文本聚类方法，所述方法包括以下步骤：划分长/短文本步骤，将待聚类文本集划分为长文本集和短文本集；建模步骤，按照特定的规则分别针对所述长文本集和所述短文本集中的文本进行建模从而获取所述文本对应的文本模型；生成特征向量步骤，基于所述文本模型生成主题参数从而基于所述主题参数获取相应文本的特征向量；文本聚类步骤，基于所述特征向量进行所述文本的聚类。本发明的聚类方法充分考虑了同时包含长文本以及短文本的混合长度文本集的特点，在平衡混合长度文本集稀疏性以及维度的前提下进行文本聚类，相较于现有技术，获得的聚类结果更加理想。 1
文本集文本聚类特征向量长文本短文本文本聚类文本模型主题参数建模短文本集聚类结果稀疏性维度平衡

[发明专利]一种基于特征选择的文本分类系统及方法-CN202210479218.4在审
发明人：陆音;胡洁;吴珞铖;郭永安 -专利权人：南京邮电大学
申请日： 2022-05-05 - 公布日： 2022-08-12 - 主分类号： G06F16/35 文献下载
摘要：本发明公开了自然语言处理和短文本分类技术领域的一种基于特征选择的文本分类系统及方法，包括：获取文本分类数据集；将文本分类数据集分为训练文本集和测试文本集后，进行预处理；将预处理后的训练文本集通过改进的卡方统计提取特征词条，形成特征子集；使用TF‑IWF算法赋予已经提取的特征词条的权重；基于赋予权重后的特征词条，建立基于支持向量机的短文本分类模型；通过短文本分类模型对预处理后的测试文本集进行分类。本发明一定程度上解决了短文本内容稀疏性的问题，从而提高短文本分类的性能。
一种基于特征选择文本分类系统方法

[发明专利]基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法-CN201710504980.2有效
发明人：黄瑞章;闫盈盈;马灿;徐立洋;丁志远;王瑞;黄庭;刘博伟 -专利权人：贵州大学;贵州耕云科技有限公司
申请日： 2017-06-28 - 公布日： 2022-05-03 - 主分类号： G06F16/35 文献下载
摘要：本发明公开了一种基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法。针对短文本的特征稀疏问题，本发明提出了主题相关长文本辅助短文本的思想，辅助的基础是长文本与短文本共享相同的主题‑词语分配。为了更好地提升聚类效果，该发明能够自动判断长文本中的有用词和噪音词，利用长文本中高质量的有用词与短文本集合进行文本聚类。此外，本发明能够自动识别文本集类的数目，改进了传统文本集类数目需要人为提前给定的情况。
基于狄利克雷多项混合模型文本辅助方法

[发明专利]一种中文短文本聚类方法-CN201610952122.X有效
发明人：崔莹;曹杰;姚瑞波;叶婷;伍之昂;申冬琴 -专利权人：焦点科技股份有限公司;南京财经大学
申请日： 2016-11-02 - 公布日： 2021-04-06 - 主分类号： G06F16/35 文献下载
摘要：本发明涉及一种中文短文本聚类方法，具体涉及一种基于词向量及其相似度计算的中文短文本聚类方法。具体步骤如下,利用Word2Vec词向量训练模型获得所需要的词向量；利用词权重计算算法获取短文本集中所有词的权重；根据词向量和所有词的权重通过短文本相似度算法计算短文本集中每两个文本之间的相似度值；根据短文本集中每两个文本之间的相似度值对短文本进行聚类本发明提出一种“搬运优化”的短文本相似度计算方法，解决了短文本文法特征稀疏和语义缺失等问题；基于图模型不断迭代计算词的权重，提高句子相似度计算的准确度；选择基于密度峰值聚类方法应用到短文本的聚类中，有效地提高聚类方法的效率
一种中文文本方法

[发明专利]短文本的垃圾识别方法及系统-CN201310173127.9有效
发明人：姜贵彬 -专利权人：微梦创科网络科技（中国）有限公司
申请日： 2013-05-10 - 公布日： 2013-09-18 - 主分类号： G06F17/27 文献下载
摘要：本发明公开了一种短文本的垃圾识别方法及系统，所述方法包括：对网站平台上设定时间段内出现的短文本，分别计算各短文本的词语特征向量；根据各短文本的词语特征向量，对所述设定时间段内出现的短文本进行集合划分；其中，被划分到同一集合中的短文本被判定为内容相似；统计每个集合中的短文本的数量，将短文本的数量超过设定阈值的集合进行垃圾标识。由于对于内容相似的短文本统计数量后，若数量超过设定阈值，则进行垃圾标识；这种处理方式不用依赖通过训练、学习后得到的垃圾文本集和非垃圾文本集，可以实时地对短文本进行垃圾识别，提高了短文本的内容的垃圾识别及时性
文本垃圾识别方法系统

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
下一页»
尾页
共 92674 条